#AI 聲學技術
AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,並且投向早期團隊。比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來,AI 語音領域會如此集中地爆發?聲智副總裁黃贇賀認為,語音對話從一個 App 中的功能模組,迅速進化為 AI 時代入口等級的存在,與大模型的加持有極大關係。在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自於聲智。這家公司創辦於 2016 年,一直在聲學+ AI 交叉領域探索。然而,作為一家在幕後提供 AI 聲學技術的公司,在大模型浪潮來臨之後,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型+語音」浪潮裡新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久,極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」,以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成:AI 語音的想像力,已經遠在 Siri 之上|圖片來源:網路01 AI 語音為何現在爆發了?最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞,意味著將一種能力或者一個對象,通過清晰的介面和邏輯,變得可以被程式碼自由地呼叫、組合、修改和控制。過去,文字是可程式設計的,圖像是可程式設計的,甚至視訊也是可程式設計的(比如視訊編輯軟體)。但聲音更多的是一種「輸入」或「輸出」的介質,其內部的複雜結構和資訊,很難被軟體直接「程式設計」和「理解」。傳統的語音識別,更多是把聲音轉換成文字,然後對文字進行處理。比如,之前在深圳、成都有很多做聲音標註的團隊,拿到語音之後,再人工轉換成文字,打上不同的標籤,比如各種特徵、意向的標籤。大模型來了之後,打標籤的這項工作可以交給大模型,它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫程式碼,費時費力。比如,想讓智能音箱支援「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。而現在 AI 大模型可以解決了。更重要的,依靠大模型對多模態資料的深度理解能力,對聲學訊號的更細緻解析,使得聲音本身攜帶的除了文字資訊之外的更多資訊,開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化,意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時,聲音包含的不再僅僅是「你說了什麼」,更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此,聲音也成為了真正的互動引擎。02 真正的語音互動,不是「Voice」而是「Sound」其實,很多人以為,語音互動就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動,核心不是「Voice」,而是「Sound」(聲音)。Sound 裡面包含了 Voice。具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義資訊(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然後跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時,它才能真正理解使用者的深層需求,提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」,大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍,但語音互動當下依然存在一個核心的「卡點」,而這個卡點根植於物理學,具體來說,就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再複雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那麼它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要麼大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控|圖片來源:網路這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯,它需要資料樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像Google、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。大家都明白,要建構真正的下一代人機互動系統,擁有核心的聲學能力是基石。04 語音互動的下一站,是實現「共情」現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」,那這個介面會長什麼樣?我們可以做個推演,它的構成要素可能會有:情緒識別:AI 通過分析語調、音量、語速,判斷使用者的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。意圖理解:不僅聽懂你說了什麼,還要明白你想做什麼。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。聲紋識別:通過獨一無二的音聲波特徵,區分不同使用者。比如,家裡的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。這些要素的背後,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種互動,能顯著提升長時間互動的質量和親密感。不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是使用者的指令,而是整個物理世界的即時反饋時,我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)